RLVR: el costo oculto de olvidar problemas resueltos
Descubre el fenómeno de rotación del conjunto correcto en RLVR, donde modelos olvidan problemas resueltos. Conoce REMIND, una técnica que mejora la retención sin costo adicional.
Descubre el fenómeno de rotación del conjunto correcto en RLVR, donde modelos olvidan problemas resueltos. Conoce REMIND, una técnica que mejora la retención sin costo adicional.
Descubre cuándo y cuánto imaginar en razonamiento espacial visual. AVIC optimiza el uso de modelos del mundo, superando a GPT-4o con menos recursos.
TRON genera instancias verificables bajo demanda para entrenar modelos de razonamiento visual con RL, mejorando benchmarks multimodales.